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摘要 :【 目的 ] 以 提高 推荐 系统 的 总 体 多 样 性 为 出 发 点 , MRE N HIP EACUS 2 TS] UR ESRAS e 25 PA TT 


影响 推荐 精确 性 和 多 样 性 问题 。[ 方法 ] 根 据 用 户 间 共 同 评分 项 目的 数量 ,通过 加 权 计 算得 出 相对 相似 性 
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正 相 似 性 计算 方法 ,进而 优化 预测 评分 算法 ,在 保证 推荐 精确 性 的 前 提 下 提高 总 体 多 样 性 ,提升 企业 的 长 尾 营 


销 效 果 。[ 结果 】 实 验 结果 表明 ， 当 评分 


关键 词 : 总 体 多 样 性 ”相对 相似 性 ”协同 过 滤 
分 类 号 : TP301 


PEEN 3.5, 最 近邻 数目 为 20 HB, 本文 方法 在 MovieLens 数据 集 上 的 计 
算 结果 相对 于 采用 传统 的 余弦 相似 性 计算 结果 ， 总体 多 样 性 提 
基于 最 近邻 的 协同 过 滤 算 法 ,并 不 涉及 其 他 推荐 技术 。[ 
荐 精确 性 和 总 体 多 样 性 用 户 相对 满意 度 都 较 高 的 推荐 结 


高 了 114， 精 确 性 提高 了 6.5%. [BR 】 仅 适用 于 


结论 ] 该 方法 有 效 地 提高 了 推荐 的 总 体 多样 性 ,获得 推 
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对 于 每 一 个 用 户 来 说 ,如 何 从 海量 信息 中 甄别 出 

有 用 的 信息 ,十 分 困难 但 却 又 非常 重要 。 个 性 化 推荐 
系统 是 解决 这 一 问题 的 重要 方法 , 它 帮助 用 户 从 庞大 
的 数据 集合 中 选择 最 合适 的 信息 。 推 荐 系统 通过 确定 
用 户 的 偏好 由, 向 特定 用 户 推荐 最 适合 他 的 或 者 他 最 
感 兴趣 的 项 目 。 推 荐 算法 主要 包括 基于 内 容 的 推荐 、 
协同 过 滤 推 荐 以 及 混合 推荐 等 。 推 荐 系统 广泛 应 用 于 
影 、 音 乐 、 图 书 、 旅 游 、 电 子 商务 中、 社交 站 和 网 络 
搜索 等 方面 。 精确 性 是 评价 推荐 系统 的 一 个 重要 指标 ， 
它 是 评价 推荐 给 用 户 的 项 目 是 否 是 最 适合 的 ， in 
种 方式 推荐 的 信息 用 户 很 可 能 早已 从 其 他 渠道 得 到 ， 
因此 很 多 情况 下 没有 必要 。 而 评价 推 E 的 另 
一 个 重要 指标 多 样 性 ， 越 来 越 受 到 研究 人 员 和 用 户 的 
关注 , 多 样 性 反映 的 是 推荐 项 目 种 类 的 差异 性 。 一 些 
学 者 甚至 称 , 多样 性 在 某 些 情况 下 超过 精确 性 能 给 用 


户 带 来 更 好 的 满意 度 。 

推荐 系统 的 精确 性 和 多 样 性 是 完全 不 同 的 两 个 方 
面 , 一 个 好 的 推荐 系统 应 该 兼顾 这 两 个 推荐 标准 , 然 
而 这 两 个 标准 是 相互 制约 的 。 如 果 大 幅 提高 推荐 结 
的 多 样 性 ,精确 性 必然 会 受到 影响 ， 从 而 使 推荐 的 结 
果 相 关 性 不 强 ; 如 果 推 荐 结果 的 精确 性 较 高 ,多 样 性 
同样 受 损 ， 推 荐 结果 会 出 现 较 高 的 相似 性 而 显得 采 
板 。 已 经 有 非常 多 的 研究 关注 如 何 提 高 推荐 系统 的 多 
样 性 , 但 是 这 些 研究 中 更 多 专注 于 提高 某 特定 用 户 推 
荐 列表 的 多 样 性 , 称 为 个 体 多 样 性 ， 除 此 之 外 ,多 样 
性 还 有 一 个 指标 称 之 为 总 体 多 样 性 ,总体 多 样 性 可 以 
被 理解 为 向 不 同 的 用 户 推荐 不 同 项 目的 数量 "4 有效 
提高 推荐 结果 的 总 体 多 样 性 , 不 仅 能 满足 用 户 的 个 性 
化 体验 要 求 , 而 且 可 以 有 效 提升 长 尾 营 销 的 效果 中 
帮助 企业 实现 利润 最 大 化 。 总 体 多 样 性 是 不 直接 关系 
到 个 体 多 样 性 的 。 

协同 过 滤 推 荐 系统 中 依据 用 户 的 评分 数据 做 出 推 
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等 问题 ,造成 推荐 结果 产生 误差 , 这 种 误差 对 于 推荐 
的 精确 性 和 多 样 性 都 造成 很 大 的 影响 ， 目 前 很 多 研究 
都 是 围绕 如 何 提 高 推荐 的 精确 性 而 展开 , 很 少 涉及 多 
样 性 , 尤其 是 总 体 多 样 性 。 本 文 主要 探讨 的 是 总 体 多 
样 性 , 在 确保 推荐 精确 性 的 前 提 下 ,尽力 提高 系统 的 
推荐 总 体 多 样 性 。 


2 文献 综述 


目前 国内 外 的 研究 将 多 样 性 的 定义 分 为 两 类 : 个 
体 多 样 性 与 总 体 多 样 性 。 个 体 多 样 性 是 从 单个 用 户 的 
角度 而 言 的 度量 标准 , 目标 是 对 于 特定 用 户 , 尽量 推 
荐 一 些 彼此 相似 度 很 低 但 又 符合 该 用 户 兴 趣 的 商品 。 
针对 多 样 性 的 推荐 目前 已 经 成 为 非常 热门 的 研究 领 
域 , 研究 人 员 提 出 了 各 种 提高 推荐 多 样 性 的 方法 , 但 
是 基本 上 都 是 以 牺牲 一 定 的 精确 性 为 代价 ， 而 且 多 数 
的 研究 都 集中 在 个 体 多 样 性 ”1。 

总 体 多 样 性 反映 的 是 推荐 系统 向 不 同 用 户 推 荐 不 
同 种 类 商品 的 能 力 * ,不 同 于 个 体 多 样 性 ， 总 体 多 样 
性 的 评价 需要 对 所 有 用 户 进行 。 虽然 之 前 文中 也 提 到 
过 总 体 多 样 性 与 个 体 多 样 性 没有 直接 的 关系 , 但 是 总 
体 多 样 性 确实 是 一 个 更 加 宽泛 的 概念 。 也 有 一 些 人 研究 
是 针对 总 体 多 样 性 进行 的 , Lacerda 等 提出 一 种 基于 用 
户 兴趣 建 模 ， 从 推荐 精确 性 、 新 颖 性 和 多 样 性 等 角度 
设计 推荐 系统 ， 提 高 了 推荐 的 总 体 多 样 性 ， 向 用 户 推 
荐 了 一 些 评分 次 数 较 少 的 长 尾 商 品 "。Park 提出 一 种 
基于 已 知 评分 值 或 评分 次 数 进行 聚 类 的 推荐 方法 , 提 
高 了 一 些 长 尾 商品 的 预测 评分 ,进而 提高 推荐 总 体 多 
PEHEN? Adomavicius 等 提出 了 一 种 改进 的 项 目 排序 
技术 ,以 提高 系统 的 总 体 多 样 性 外 。 项 目 受 欢迎 度 排 
名 、 反 向 预测 评分 值 、 邻 域 评级 方差 等 一 些 排名 方法 
为 系统 设计 人 员 提 供 了 更 好 的 灵活 性 , 并 且 可 以 与 不 
同 的 评级 预测 算法 结合 ,以 获得 更 好 的 总 体 多 样 性 外。 
Fleder 等 研究 了 推荐 系统 对 销售 多 样 性 的 影响 ,研究 
结果 表明 ,即使 是 一 些 知 名 的 推荐 系统 也 可 能 会 导致 
销售 多 样 性 的 减少 , 因为 这 些 系统 都 是 在 销售 和 评分 
基础 上 推荐 产品 中, Bobadilla 等 提出 基于 优化 的 方法 ， 
以 提高 总 体 多 样 性 , 包括 贪 焚 算 法 、 基 于 最 大 流 的 方 
法 和 整数 规划 方法 中。 贪 梦 算法 是 一 个 迭代 过 程 , 是 
将 已 经 推荐 的 项 目 替换 为 高 于 阔 值 的 项 目 。 基 于 最 大 
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流 的 方法 是 一 个 基于 图 的 算法 , 通过 制定 用 户 和 项 目 
之 间 的 最 大 流 问题 以 改善 推荐 多 样 性 。 整 数 规划 方法 
是 用 精确 性 和 多 样 性 解决 多 准则 优化 问题 。 上 述 几 种 
方法 在 总 体 多 样 性 上 虽然 有 所 改善 , 但 是 精确 性 同时 
受到 了 较 大 的 影响 。 王 森 提 出 一 种 提高 系统 的 总 体 多 
样 性 和 长 尾 商 品 的 推荐 率 的 推荐 方法 , 综合 考虑 了 商 
品 预测 值 、 商 品 流行 度 、 商 品 的 偏爱 度 等 多 个 标准 中 。 
本 文 提出 一 种 解决 用 户 评分 数据 分 布 不 均 和 存在 稀 玻 
性 的 情况 下 在 保证 精确 性 的 前 提 下 ,提高 推荐 总 体 多 
样 性 的 方法 。 


3 基于 相对 相似 性 的 协同 过 滤 推 荐 


本 文采 用 的 推荐 方法 是 基于 用 户 的 协同 过 滤 推 荐 
算法 ,， 相似 性 计算 是 协同 过 滤 推荐 中 的 关键 步骤 ,其 
计算 的 结果 对 K 个 最 近邻 的 产生 具有 决定 性 作用 ， 
影响 到 预测 评分 。 常 使 用 的 相似 性 计算 方法 包括 余 

弦 相 似 性 、Pearson 相关 系数 、Jaccard 相似 性 等 , 本 文 
使 用 余弦 相似 性 计算 用 户 u 与 其 他 用 户 之 间 的 相似 性 ， 
对 相似 性 的 优化 问题 也 是 针对 余弦 相似 性 而 言 。 
3.1 余弦 相似 性 及 预测 评分 

多 数 协同 过 滤 推 荐 系统 都 是 采用 余弦 相似 性 ， 并 
且 事 实证 明 该 算法 在 很 多 研究 中 的 应 用 都 非常 成 功 。 
假设 UU 为 推荐 系统 的 用 户 集 , I 为 要 推荐 给 用 户 的 项 目 
集 , RU, i) 为 用 户 u 对 项 目 i 的 实际 评分 , R*(u, iD 为 用 户 
u 对 项 目 i 的 预测 评分 如 公式 (1) 所 示 站 : 

Y R(Os)xR(w.i) 

iel(u,u) (1) 

i Y | R(u,iy? ^ Y | Ru ,iD2 
iel(u,u') iel(u,u') 

其 中 , Iu, u) 表 示 用 户 u 和 都 已 经 评 过 分 的 项 目 
集 , 经 过 相似 性 计算 后 ,可 获得 最 近邻 居 集 S(u), R(u) 
HHF u 的 平均 评分 , 则 预测 评分 R*(u, D 的 计算 如 公 
式 (2) 所 示 中 : 


-" 


Sim(u, u’ ) = 


È Simu, w)x(Rw,i)-R@)) 
* Ao pAn VES) 
R*(u,i)=R(u)+ x [Simav] (2) 


weS(u) 

研究 发 现在 很 多 情况 下 采用 余弦 相似 性 提高 推荐 

精确 性 时 ， 其 实 无 形 中 降低 了 推荐 的 总 体 多 样 性 ， 这 

些 情 况 正 是 余弦 相似 度 面 对 用 户 评分 数据 不 均 以 及 数 
据 稀 玻 时 计算 所 存在 的 不 足 之 处 。 

例 1 假设 有 4 个 用 户 ul,u2,u3,u4 以 及 他 们 评价 
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的 项 目 , La (ul) = fil, i3, i5} , La (u2) = (i3, i5, i7) , 
L;(u3)- (i3), L,(u4)- (i2, i3, i7). 

很 显然 , u3 是 其 他 三 个 用 户 的 最 近邻 ， 因 为 在 这 
种 情况 下 ,他 们 仅 有 一 个 共同 评分 的 项 目 i3, 因此 ， 
用 户 u3 与 其 他 用 户 的 余弦 相似 性 值 为 1。 因 为 通常 
认为 如 果 两 个 用 户 有 一 个 共同 评分 的 项 目 ， 那么 无 
论 两 个 个 体 评分 差异 有 多 大 ， 都 认为 他 们 的 余弦 相 
似 性 为 1。 

例 2 假设 有 4 个 用 户 , 其 评分 分 别 是 ul= (2, 2, 2}, 
u2 = {3,3,3} ,u3- {5, 5, 5}, u4= {2, 5,3), 

那么 用 户 u4 与 其 他 三 个 用 户 的 相似 性 是 相同 的 ， 
在 这 种 情况 下 其 结果 都 是 0.9366。 

当 评 分 的 数目 非常 有 限 的 情况 下 ,这 类 问题 会 更 
加 严重 , 这 是 因为 当 有 效 评分 不 足以 支持 相似 性 计算 
时 , 运算 产生 的 误差 概率 会 明显 增 大 。 如 果 这 种 情况 
出 现在 用 户 u 的 最 近邻 , 则 用 户 u 的 预测 评分 R*(u, i) 
会 与 平均 评分 相同 ， 因 为 在 这 种 情况 下 Rw, 05 
R(w) 相同 ( 见 公式 (2))。 所 以 , 用 户 的 评分 越 少 , 预测 
评分 出 现 误差 就 会 越 大 , 进而 影响 到 推荐 系统 的 精确 
性 和 总 体 多 样 性 。 
3.20 ”优化 相似 性 算法 

解决 上 述 问 题 的 方法 是 将 评分 少 的 用 户 ( 无 论 是 
评分 总 数 少 还 是 个 体 项 目 评分 少 ) 进 行 弱化 , 强化 评分 
数据 多 的 用 户 , 具体 的 方法 是 考虑 两 个 用 户 共 同 评分 
的 数目 , 现实 中 两 个 用 户 共 同 评分 的 项 目 越 多 , 说 明 
其 相似 性 相对 越 高 , 所 以 在 进行 相似 性 计算 时 应 该 将 
用 户 间 的 共同 评分 项 目 数目 作为 一 个 重要 因素 考量 ， 
基于 这 一 原理 设计 相对 相似 性 算法 (Relative 
Similarity , RS) 如 下 : 

CR: 共同 评分 项 目 数 , MCR: 最 大 共同 评分 项 目 数 

输入 : 用 户 集 U, 项 目 集 任意 两 用 户 间 的 相似 性 Simuser any user 

输出 : 相对 相似 性 RS 

DCR=0, MCR-0 


for user= 1 to JUH do 
MCR=0 


© 


( forany user-user-l to [U| do 
© CR=|I(user, any_user)| 

© if CR>MCR then 

© MCR=CR 


© 
© 
2 
a 


Wend 
(Dror user-1 to |U] do 
(2 forany user=usertlto |U| do 
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B CR=|I(user, any_user)| 
d)  W=(CR/MCR) 

dD ^ RS-We*simue, ay user 
dO end 

Dend 


该 算法 是 在 相似 性 计算 后 ， 对 用 户 之 间 的 相似 性 
计算 结果 进行 修正 , 它 有 三 个 输入 参数 : 用 户 集 、 项 目 
集 以 及 计算 后 的 用 户 之 间 的 相似 性 。 算 法 的 第 QD 行 首 
先 定义 两 个 变量 , 分 别 是 当前 用 户 与 任意 用 户 的 共同 
评分 项 数目 CR 和 当前 用 户 与 所 有 用 户 中 共同 评分 项 
数目 最 大 值 MCR; 算法 的 第 @ 行 到 第 @ 行 的 内 循环 
是 计算 当前 用 户 与 其 他 用 户 的 共同 评分 项 目 数 的 最 大 
E, 而 第 @@ 行 到 第 0 行 的 运算 结果 是 得 出 所 有 用 户 与 
其 他 用 户 的 共同 评分 项 目 数 的 最 大 值 ， 为 算法 的 下 半 
部 分 权 值 的 使 用 做 数据 准备 。 算 法 的 第 二 部 分 (第 
人 -人 @ 行 ) 是 对 之 前 计算 的 相似 性 结果 进行 加 权 修 正 ， 
其 中 第 (9 行 设 定 任 意 用 户 any. user 与 当前 用 户 user Jt 
同 评分 项 目 数量 相对 于 当前 用 户 user 与 所 有 用 户 共 同 
评分 项 数目 的 最 大 值 的 比值 作为 这 两 个 用 户 的 计算 权 
E W, 第 行使 用 该 权 值 修正 相似 性 计算 结果 , 得 出 
相对 相似 性 RS， 当 两 个 用 户 的 CR 相对 较 大 时 , W 的 
值 趋向 于 1, 相似 性 较 高 ,， 而 CR 较 小 时 ，W 值 趋向 于 
0, 相似 性 较 低 , 符合 之 前 的 算法 设想 。 按 照 修正 后 的 
相似 性 值 计算 的 最 近邻 更 加 准确 。 如 在 3.1 节 的 例 1 
中 L, (ul) = {il, 13, i5} , La (u2) = 113, 15, i7} ， 
L.(u3)- (i3), L.(u4)-1i2, i3, i7), 假设 用 户 集中 仅 有 这 
4 个 用 户 , 则 用 户 ul 与 用 户 集中 其 他 用 户 最 多 的 共同 
评分 项 目 数 为 2, 所 以 用 户 ul 与 u3 的 相对 相似 性 RS 
为 1/2=0.5, 如果 用 户 的 数目 更 多 , 则 ul 与 u3 的 相似 
性 可 能 更 低 ; 例 2 中 , 4 个 用 户 共同 为 三 个 项 目 评分 ， 
所 以 u4 与 其 他 三 个 项 目的 相对 相似 性 RS 应 为 
0.9366/3=0.3122。 对 比 前 后 两 个 数据 ,优化 后 的 相对 相 
似 性 更 能 真实 地 反映 用 户 间 的 相似 性 。 

在 预测 评分 时 使 用 相对 相似 性 RS, 在 上 述 问 题 
的 情况 下 , 产生 误导 性 的 相似 性 会 通过 加 权 共 同 评分 
项 目 进行 调整 , 使 得 具有 更 多 共同 评分 的 项 目 对 相似 
性 的 计算 权 值 影响 更 大 ,而 较 少 共同 评分 的 项 目 权 值 
较 小 , 这 样 具有 误导 性 的 相似 性 将 不 会 被 作为 最 近邻 
来 考虑 。 经 过 修正 后 的 预测 评分 计算 如 公式 (3) 所 示 : 


> RS wR, D - R(v)) 
R*(u,i) = R(u) + E Q) 


X [RS, w | 


u'eS(u) 


采用 该 公式 进行 预测 评分 的 计算 ,可 以 获得 精确 
性 和 总 体 多 样 性 相对 用 户 满意 度 较 高 的 推荐 结果 。 


4 实验 结果 及 评价 


4.1 数据 集 

实验 采用 的 数据 集 是 公开 的 数据 集 MovieLens” 
的 子 集 。MovieLens 数据 集 包 含 943 个 用 户 对 1 682 
部 电影 的 100 000 个 评分 数据 , 评分 范围 为 从 1 到 5。 
将 数据 子 集 划分 为 80% 的 训练 集 和 20% 的 测试 集 。 在 
两 个 数据 集中 分 别 实现 下 面 的 操作 , 创建 用 户 项 目 矩 
阵 , 采用 修改 后 的 相似 性 方程 计算 协同 过 滤 中 的 最 近 
4p. 最 近邻 确定 后 ,进行 预测 评分 。 之 后 依据 准则 ， 即 
用 户 u 对 项 目 i 的 预测 评分 是 否 大 于 评分 阀 值 ， 最 终 确 
定 推荐 的 项 目 。 
4.2 评价 指标 

本 文 算法 设计 目的 是 在 保证 精确 性 的 前 提 下 提高 
总 体 多 样 性 ， 因 此 进行 算法 评价 时 应 同时 考虑 精确 性 
和 多 样 性 两 个 指标 。 对 目标 项 目 进 行 评分 预测 后 , 算 
法 通过 设 定 评 分 冰 值 生成 最 终 推荐 列表 ， 相 关联 的 阔 
值 定义 为 Tr, 对 于 每 一 个 预测 评分 ， 如 果 R*(u, i) z Tr, 
计算 其 推荐 精确 性 如 下 外: 

>》 |result(Ln(u))| 


accuracy = 43€U 
EDITT 


ueU 


(4) 


其 中 , L,(W)={i1, i2,…, in} 为 推荐 列表 的 前 n 个 推 
EMA, 并 且 result(L.(u)) = (i € L.(u)[R(u, i) 2 Tr] AHE 
荐 项 目 中 评分 超过 规定 阔 值 的 项 目 。 

即使 是 准确 率 比 较 高 的 推荐 系统 也 不 能 保证 用 户 
对 其 推荐 结果 满意 ,推荐 系统 中 另 一 个 需要 重点 关注 
的 内 容 是 推荐 商品 的 种 类 ,相关 的 评价 指标 是 推荐 系 
统 的 多 样 性 。 但 是 不 同 的 研究 人 员 评 价 多 样 性 的 指标 
各 不 相同 ,多 样 性 分 为 个 体 多 样 性 和 总 体 多 样 性 ,个 
体 多 样 性 是 用 户 内 的 多 样 性 , 是 衡量 推荐 系统 对 一 个 
用 户 推荐 商品 的 多 样 性 , 总 体 多 样 性 衡量 推荐 系统 对 
不 同 用 户 推荐 不 同 商品 的 能 力 。 本 文采 用 的 总 体 多 样 
性 的 计算 公式 如 下 外 


diversity =| UueuLn (U) | (5) 


CDhttp://www.movielens.org/. 
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4.3 ”实验 结果 分 析 

实验 结果 分 别 对 比 了 MovieLens 数据 集 使 用 相对 
相似 性 计算 前 后 推荐 结果 的 精确 性 和 总 体 多 样 性 的 变 
化 情况 。 图 1 中 三 条 虚线 显示 采用 传统 的 相似 性 计算 
最 近邻 数 分 别 为 10、20、50 的 情况 下 精确 性 随 评分 阔 
值 的 变化 情况 。 三 条 实 线 显 示 在 同样 的 情况 下 采用 相 
对 相似 性 计算 精确 性 的 变化 情况 。 


100 
95 
90 DRN 
(< 
确 85 STSAS 97? 
SN 9,5? 
80 eV 
v 
75 
2:8 3.0 3.5 4.0 
评分 国 值 
-G» 10 =@» 20 50 =@= 10RS =@= 20RS 


图 1 相对 相似 性 使 用 前 后 精确 性 对 上 比 


图 1 中 数据 显示 , TETEAT BU[UFB IR] UTR DG P, df 
荐 的 精确 性 随 着 最 近邻 数目 的 增加 而 提高 ， 这 一 点 两 
组 数据 类 似 。 这 说 明 最 近邻 的 数目 对 于 推荐 精确 性 有 
正 向 的 影响 , 但 是 最 近邻 的 增多 同时 增加 了 预测 评分 
的 计算 复杂 度 。 虚 实 线 的 对 比 显 示 , 采用 相对 相似 性 
的 推荐 结果 相对 于 未 采用 的 推荐 精度 非但 没有 降低 ， 
反而 有 所 提高 ,推荐 精度 在 评分 阐 值 为 3.5 时， 提升 效 
果 明 显 。 实 验 结果 显示 实现 了 算法 设计 时 提出 的 保证 
推荐 准确 度 的 要 求 。 

图 2 中 同样 用 三 条 虚线 和 三 条 实 线 表示 在 采用 
相对 相似 性 计算 总 体 多 样 性 的 前 后 对 比 情 况 。 可 以 
看 出 ， 使 用 相对 相似 性 的 推荐 结果 总 体 多 样 性 有 了 
明显 提高 。 实 验 数据 显示 评分 装 值 为 3.5 时 ， 最 近邻 
为 10 时 ,多 样 性 由 98 提升 到 221; 最 近邻 为 20 时 ， 
多 样 性 由 87 提高 到 201; 最 近邻 为 50 时 , 多 样 性 由 
79 提高 到 127。 

另外 ,图 2 中 实 线 数据 显示 ， 当 阔 值 较 小 时 ,总 体 
多 样 性 值 相对 于 未 使 用 相对 相似 性 时 有 明显 提升 ， 当 
阔 值 逐渐 增 大 时 , 尤其 是 达到 4 时 ,总体 多 样 性 值 几 
乎 接近 于 未 使 用 之 前 的 结果 。 
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图 2 相对 相似 性 使 用 前 后 总 体 多 样 性 对 比 


从 图 1 和 图 2 中 还 可 以 看 到 ， 当 阅 值 为 4 时 ,精确 
性 虽然 相对 较 高 , 但 是 多 样 性 值 大 幅 降 低 ， 可 以 得 出 
结论 : 项 目 中 评分 闪 值 较 高 时 ,会 导致 推荐 结果 的 种 
类 相对 比较 集中 。 从 实 线 数据 的 对 比 还 可 以 看 出 , 当 
BEA 3.5 时 , 是 推荐 结果 精确 性 最 低 而 多 样 性 最 高 
的 情况 ， 从 而 也 说 明了 两 者 相互 制约 的 关系 。 


5 结 语 


本 文 提出 一 种 有 效 提高 推荐 总 体 多 样 性 的 方法 ， 
同时 提出 一 种 基于 相对 相似 性 分 析 推 荐 多 样 性 的 方 
式 。 从 实验 结果 可 以 看 出 , 本 文 提 出 的 推荐 模型 相对 
于 之 前 的 研究 方法 ,总 体 多 样 性 与 精确 性 随 着 闵 值 的 
增加 都 得 到 了 有 效 的 优化 提升 。 同 时 , 在 阔 值 相对 较 
高 的 情况 (如 3、3.5) 下 ,系统 的 推荐 结果 既 保 持 了 较 高 
的 精确 性 ， 同 时 多 样 性 也 得 到 较 好 的 优化 。 

本 文 提出 的 方法 主要 出 发 点 在 于 提高 推荐 系统 的 
总 体 多 样 性 ,对 于 个 体 多 样 性 的 优化 之 前 也 做 过 相关 
研究 ,两 种 多 样 性 的 相关 性 以 及 综合 提升 方法 是 进 一 
步 研究 工作 的 方向 。 
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New Collaborative Filtering Algorithm Based on Relative Similarity 


Jiang Shuhao ^?  ZhangLiyi"^ Zhang Zhixin? 
(School of Electronic Information Engineering, Tianjin University, Tianjin 300072, China) 
"(Information Engineering College, Tianjin University of Commerce, Tianjin 300134, China) 


Abstract: [Objective] The purpose of this study is to improve the overall diversity of the recommendation results. The 
proposed algorithm reduces errors caused by the uneven distribution and sparsity of user rating data, and then improves 
the recommendation accuracy and diversity. [Methods] We first generated the relative similarity index based on the 
number of common ratings and individual weights. Second, we modified the similarity calculation method, and the 
rating prediction algorithm. The proposed model improved the aggregated diversity and maintained the 
recommendation accuracy, which improved the marketing effects. [Results] The aggregated diversity index increased 
114, the accuracy improved 6.5% on the MovieLens data compared with results generated by the traditional cosine 
similarity calculation, (the rating threshold was 3.5 and number of KNN is 20). [Limitations] This method was only 
applicable to collaborative filtering based on the nearest neighbor, and it did not include other recommendation 
techniques. [Conclusions] The proposed method effectively improves the diversity and accuracy of recommendation 
results, which significantly improves the user experience. 


Keywords: Aggregate diversity Relative similarity | Collaborative filtering 
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